Trong khi các kernel 1D xử lý dữ liệu như một luồng tuyến tính, Nhận thức về Bố cục 2D thay đổi mô hình hướng đến việc xử lý các cấu trúc "mảnh". Phần cứng GPU hiện đại tối ưu hiệu suất bằng cách nhóm các phần tử thành lưới 2D để tối đa hóa tính cục bộ không gian và tận dụng các lõi tensor chuyên dụng.
1. Vượt ra ngoài Xử lý từng phần tử
Trong 1D, mỗi luồng tính toán một giá trị vô hướng. Trong kernel 2D của Triton, chương trình hoạt động trên toàn bộ khối cùng lúc. Điều này mở rộng phép cộng vector đơn giản thành các biến đổi ma trận phức tạp như GEMM.
2. Tính cục bộ Không gian
Hiểu rõ cách các phần tử kề nhau (theo chiều ngang và dọc) được lấy vào bộ đệm là bước nhảy vọt từ các kernel giáo dục sang các kernel sẵn sàng sản xuất. Điều này đảm bảo rằng ngay cả với bộ nhớ đảo ngược hoặc có padding, kernel truy cập dữ liệu mà không làm lãng phí băng thông.
3. Con đường hướng tới Sản xuất
Thành thạo bố cục 2D cho phép chia nhỏ dữ liệu trên Các Bộ xử lý Đa luồng (SMs) hiệu quả. Ví dụ, một thao tác Sao chép Ma trận nhận diện chiều rộng/chiều cao có thể tải các mảnh 16×16 vào bộ nhớ trong nhanh, tuân thủ "bước nhảy vật lý" của tensor.